2  Установка и начало работы с R

2.1 Установка R

Прежде, чем начать работать с R нам нужно установить его себе на компьютер. Для этого необходимо перейти по ссылке и выбрать версию, подходящую для вашей операционной системы (ссылка ниже ведет на версию для Windows): https://cran.r-project.org/bin/windows/base/

Вместе с R устанавливается небольшая консоль, в которой можно набирать команды на R, но работать в ней не очень удобно, поэтому большинство пользователей предпочитает работать со специальным интерфейсом, или интегрированной средой разработки (Integrated Development Environement, IDE). Наиболее популярной IDE является RStudio (с другими средами, в которых можно работать в R, такими как Visual Studio, Emacs, Eclipse и другими, Вы можете познакомиться самостоятельно).

Это бесплатная программа, скачать которую можно по ссылке.

https://posit.co/products/open-source/rstudio/

Шаги по установке не очень трудны и не потребуют каких-то особых навыков, но на всякий случай, можно обратиться к однму из обучающих видео:

Как установить R:

Как установить RStudio:

Уведомление

В комьютерных классах устанавливать ничего не нужно, эти инструкции пригодятся для домашнего использования.

RStudio online

Кроме “стационарного” использования RStudio, компания Posit предоставляет возможность использования облачных технологий для работы с RStudio онлайн. Бесплатный план позволяет создать до 25 проектов и предоставляет 25 часов в месяц вычислительного времени. Этого будет достаточно для наших учебных проектов. Для получения доступа к Posit Cloud необходимо зарегистрироваться на сайте https://posit.cloud/ или войти с помощью социальных сетей и создать новый проект.

2.2 Начало работы с R и RStudio

После первого запуска RStudio вы, скорее всего, увидите вот такую картину:

Основное окно RStudio будет состоять из трех частей (экранов).

Слева находится консоль (Console) - здесь можно писать код, и здесь же будут появляться результаты его выполнения, а также различные сообщения, с помощью которых R “общается” с пользователями.

Справа сверху - рабочее окружение (Environment) - здесь хранятся создаваемые и загружаемые объекты - данные (вектора, датафреймы и пр.), пользовательские функции и некоторые другие объекты.

Окружение является структурой данных, предназначенной для обеспечения области видимости. Это коллекция каких-то объектов (переменных, функций, массивов данных), которые мы используем. Хэдли Уикхэм предлагает относиться к окружению как к “мешку с именами”, :

Есть четыре типа окружений:

  • Глобальное окружение - интерактивное пространство, где мы обычно работаем.

  • Базовое окружение, создаваемое базовым пакетом R.

  • Пустое окружение, не имеющее никаких имен. Является в большей степени абстракцией, хотя и может быть создано с помощью специальной функции.

  • Текущее окружение, то есть то, в котором мы работаем в какой-то момент времени.

    Обычно мы не задумываемся над тем, в каком окружении работаем. Это становится важным тогда, когда возникают конфликты функций и ошибки выполняемого кода. Окружение создается автоматически при запуске программы RStudio.

В этом же окне можно посмотреть историю (History) выполнения кода, и если вы случайно или специально что-то удалили, часто именно в истории можно найти строки, которые были выполнены, и их можно восстановить. Здесь есть некоторые другие вкладки, они нам понадобятся на более поздних этапах работы с R и RStudio.

Справа снизу - окно просмотра. В отдельных вкладках можно посмотреть, какие файлы и папки есть в рабочей директории, какие библиотеки установлены, можно запросить помощь или посмотреть графики (в процессе анализа).

Это только в первый раз окна всего три.

Выберите в меню File - New File - R Script:

Откроется новый файл, и окон станет четыре:

В этом новом окне можно писать код и комментарии, сохранять его как отдельный файл с расширением .R, который можно запускать повторно, что очень удобно и позволяет значительно сохранить время при рутинной обработке данных. Очень часто в ходе обработки и анализа данных приходится осуществлять повторяющиеся действия, и скрипт поможет ускорить процесс обработки. В этом состоит основное отличие от консоли, где код можно запустить только однажды.

2.3 Первые простые действия в R

Давайте создадим наш первый скрипт и сохраним его для истории 😄:

  1. Выбрать в меню File - New File - R Script (если Вы этого еще не сделали) или нажать Ctrl + Shift + N.
  2. Написать код, выполняющий простые арифметические действия:
1+1
[1] 2
Уведомление
Оператор Описание
+ сложение
- вычитание
* умножение
/ деление
^ или ** возведение в степень
x %% y остато от деления (x mod y) 5%%2 = 1
x %/% y целая часть при делени 5%/%2 =2
  1. Написать код, отображающий текстовое сообщение:
"Привет, Алтайский государственный университет!"
[1] "Привет, Алтайский государственный университет!"
  1. Сохранить файл.

2.4 Работа с библиотеками

Мы уже выяснили, что базовый язык R в настоящее время используется наряду с многочисленными функциями и библиотеками, разрабатываемыми коллективами ученых и разработчиками из разных стран мира, включая Россию.

Устанавливать новые библиотеки нам придется практически на каждом занятии, поэтому лучше научиться делать это сразу.

Эти библиотеки хранятся в основном в двух местах:

  • CRAN
  • Github - нечто вроде социальной сети для программистов, где все друг друга знают, создают совместные проекты и делятся кодом.
Кое-что о библиотеке/пакетах

Мы называем “библиотеку” “библиотекой” и подразумеваем под ней набор каких-то полезных утилит, наборов данных и сопутствующей документации, потому что так принято в русскоязычном сегменте Интернета, посвященном программированию.

Однако, по-английски библиотека называется package, то есть “пакет”, в котором “упакованы” функции, сопровождающие документы и иногда готовые данные, а вот функция, которая этот пакет подключает - `library()` – что собственно и переводится как библиотека, такой вот языковый казус. Об этом стоит помнить и слова эти не путать.

2.4.1 Как установить библиотеку с помощью CRAN

Чтобы скачать и установить нужную библиотеку с помощью CRAN, проще всего воспользоваться меню RStudio. Нужно выбрать пункт меню Tools - Install Packages:

Затем в окне Packages необходимо ввести имя нужной библиотеки, например, dplyr и нажать на кнопку Install. По умолчанию будет стоять “галочка” - Install Dependencies (установить зависимости) - убирать ее не надо, так как это позволить установить не только саму библиотеку, но и другие библиотеки, от которых она зависит и к которым обращается в ходе выполнения функций. В противном случае, могут возникать ошибки, а оно нам надо?

2.4.2 Как установить библиотеку из Github

Не все библиотеки доступны на CRAN, так как эта процедура достаточно сложная и строгая, предполагает несколько проверок (кода, сопроводительной документации). Достаточно частая практика, когда библиотека еще не подана для регистрации на CRAN, разработчики помещают ее на GitHub, откуда ее можно скачать и использовать по назначению. Это позволяет разработчикам получить обратную связь, устранять возможные ошибки, улучшать код.

Чтобы установить нужную библиотеку из GitHub, нам понадобится функция install_github(), в которой мы должны указать имя разработчика и название библиотеки. Однако, чтобы выполнить эту функцию, нужна дополнительная библиотека devtools. Установить ее можно через CRAN с помощью описанного выше способа. А уже затем, загрузив ее, установить нужную нам библиотеку (получается сложновато, зато мы сразу научимся нужным действиям, потом мы доведем их до автоматизма):

library (devtools)
install_github("DeveloperName/PackageName")

2.4.3 Вопросы для самопроверки

Какой код нужно написать, чтобы подключить для использования уже установленную библиотеку tidyverse? r fitb(c(“library( tidyverse )”, “library(”tidyverse” )“,”library( ‘tidyverse’ )“), ignore_ws = TRUE, width =”20”)